Native Sparse Attention: Hardware-Aligned and Natively  Trainable Sparse Attention 置顶

Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention

https://arxiv.org/abs/2502.11089 DeepSeek在AI领域的发展一直备受关注,其最新论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》更是引发了行
通义千问:qwen2.5-coder 置顶

通义千问:qwen2.5-coder

最新的特定于代码的通义千问模型系列,在代码生成、代码推理和代码修复方面有显著改进。 简介 四月初,我们发布了 CodeQwen1.5, 得到了社区广泛的关注与喜爱。自那以后,我们一直在继续努力提升代码模型。今天,我们很高兴地宣布新一代的开放代码模型 Qwen2.5-Coder 的发布。并正式将 Co

Vite 6.0 发布!全新 Environment API

前言 在人工智能和机器学习技术日益成熟的今天,构建由 AI 驱动的用户界面成为了软件开发的一大趋势。为了简化这一过程,Ant Design X 应需而生!

将上下文长度扩展至百万 Tokens !

简介 在 Qwen2.5 发布之后,我们听到社区对处理更长序列的需求。在这段时间,我们针对长序列处理能力以及长序列下的推理效率进行了很多优化。今天,我们隆重推出新的 Qwen2.5-Turbo 版本,其特点在于: 更长的上下文支持: 我们首次将模型的上下文长度从 128k 扩展到 1M,该长度约为

Hello Halo

如果你看到了这一篇文章,那么证明你已经安装成功了,感谢使用 Halo 进行创作,希望能够使用愉快。